现有的基于深度学习的3D对象检测器通常依赖于单个对象的外观,并且不明确注意场景的丰富上下文信息。在这项工作中,我们为3D对象检测(CMR3D)框架提出了上下文化的多阶段完善,该框架将3D场景作为输入,并努力在多个级别上明确整合场景的有用上下文信息,以预测一组对象界限盒以及它们相应的语义标签。为此,我们建议利用一个上下文增强网络,该网络在不同级别的粒度级别上捕获上下文信息,然后是多阶段修补模块,以逐步完善框位置和类预测。大规模ScannETV2基准测试的广泛实验揭示了我们提出的方法的好处,从而使基线的绝对提高了2.0%。除3D对象检测外,我们还研究了CMR3D框架在3D对象计数问题上的有效性。我们的源代码将公开发布。
translated by 谷歌翻译